BOT_NAME = 'sdWeatherSpider'

SPIDER_MODULES = ['sdWeatherSpider.spiders']
NEWSPIDER_MODULE = 'sdWeatherSpider.spiders'

# 目标省份列表（拼音）
PROVINCES = ['guangdong','guangxi']  # 可扩展

# 中间件配置（仅保留User-Agent和数据清洗）
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,  # 禁用默认UA
    'sdWeatherSpider.middlewares.UserAgentMiddleware': 543,   # 随机UA中间件
}

SPIDER_MIDDLEWARES = {
    'sdWeatherSpider.middlewares.DataCleaningMiddleware': 543,  # 数据清洗中间件
}

# 启用Item Pipeline（关键修复！）
ITEM_PIPELINES = {
    'sdWeatherSpider.pipelines.SdweatherspiderPipeline': 1,
}

# 其他优化配置
ROBOTSTXT_OBEY = False  # 忽略robots.txt
DOWNLOAD_DELAY = 2       # 全局下载延迟（防封禁）
CONCURRENT_REQUESTS = 4  # 并发请求数
DOWNLOAD_TIMEOUT = 30    # 单请求超时时间（秒）
RETRY_TIMES = 3          # 重试次数
RETRY_HTTP_CODES = [500, 502, 503, 504, 408]  # 重试状态码 # 重试状态码

